金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

大数据时代新的数据生命周期管理轨迹

2015-01-13 17:45:10作者:中国人民银行武汉分行 刘晓编辑:金融咨询网
随着大数据时代的到来,金融数据中心数据管理平台的数据逐渐增多导致系统性能逐渐下降,严重影响了系统效用的发挥。因此,基于数据生命周期理论,对数据管理平台进行优化的需求日渐紧迫。

随着大数据时代的到来,数据规模日益庞大,数据存储及处理能力面临着巨大的挑战,如何构建合理的数据架构体系,实现数据的高效存储及利用,保障数据安全,提高数据质量,以及充分发挥数据的利用价值等已成为目前数据管理的重点内容。数据中心的数据管理平台集中存储了数据中心的主要业务数据,并对外提供数据查询和导出接口,实现了数据中心数据的集中整合,为数据大集中背景下的数据利用奠定了坚实基础。

        然而,数据管理平台的数据逐渐增多导致系统性能逐渐下降,严重影响了系统效用的发挥。因此,需以数据生命周期理论为方法,分析数据管理平台中数据的分类机制,管理优化数据管理平台的数据存储结构,控制在线数据规模,做好历史数据维护,提高系统资源使用效率,保障系统健康高效运行,实现数据生命周期管理在数据中心管理平台的落地,使数据在生命周期的各个阶段以最低的成本获得最大的收益。

一、数据生命周期管理综述

        1.数据生命周期管理的涵义

        数据生命周期管理是依据不同数据在不同阶段的价值实施不同的管理策略,以简单、可靠、经济、有效的方式使企业获取数据的最大价值,从而有效降低企业IT的总体拥有成本。数据生命周期管理是一种数据管理模型,即对数据进行贯穿其整个生命周期的管理,从创建和使用到归档和处理,它是一种针对数据进行主动管理的过程策略。

        2.数据生命周期管理的基本原理

        数据生命周期理论认为数据是有生命周期的,随着时间的推移,遵循数据访问频率变化与数据量累积变化成反比这一客观规律。因此,需要根据数据访问频率进行数据价值评估,对大量低价值信息采取低成本的数据保存手段,使数据的价值与存储的技术和管理相匹配,进而大幅降低整体数据存储成本。

        根据数据的这一运动规律,数据生命周期理论将数据的生命周期分为在线、近线、离线以及销毁4个阶段。

        在线阶段,数据访问频率较高,数据从产生开始一直在生产系统中保存,并且数据的生成和利用需要使用高速存储,并提供相应的保护措施,保障数据的高可用性。

        近线阶段,数据使用相对不频繁,数据并不总是有用户访问,其重要性逐渐降低。通常将数据保存在中低端存储设备中,但仍能够进行在线访问,由于处理能力有限,访问的响应时间比在线数据访问时间有所增加,而且近线数据一般不在线应用,因此,不会对业务系统产生影响。

        离线阶段,数据一般是没有用户访问的,只是为了预防一些特殊事件,按规定必须长时间保留,主要考虑的是数据的海量存储。历史数据随着时间的推移在不断的增加,由于这些数据对于在线系统来说没有多大的实际意义,只是作为今后的备查,因而可备份到磁带上长时间保存。

        销毁阶段,数据已过保存期,不再具有利用价值,可以进行销毁。

二、数据管理平台的运行现状

        1.数据管理平台的基本功能

        数据管理平台作为数据中心集中存储平台,集中存储了主要业务系统的数据,并对外提供数据查询和导出接口。数据中心主要应用系统每日导出文本格式的增量数据,通过数据管理平台的数据接收、加载、抽取等一系列操作,最终存储在数据管理平台中的DB2数据库中,并通过数据服务功能,提供业务数据的查询下载服务;通过数据源的抽取功能,将所需业务数据抽取至其它应用系统使用。数据管理平台统一了数据中心的数据标准,建立了各业务系统之间的联系,实现了业务数据的共享,并且统一管理和维护整合数据,降低了数据管理成本。

        2.数据管理平台运行中存在的问题

        首先,数据量不断增大,存储空间明显不足。各应用系统每日将增量数据加载至数据管理平台,数据量的逐渐增多导致磁盘空间占用率逐渐增大,存储空间日渐不足,影响了系统的正常使用。若要保证系统的稳定运行,扩存储空间是最快的解决方案,但并非根本的解决方法,因为这将导致占用存储空间越来越多、设备投入成本较大。

        其次,系统的维护量变大。由于数据不断加载入库,数据管理平台的数据库表空间需要定时的进行扩充,否则会造成表空间满而数据无法入库的情况。由于存储空间有限,每次数据表空间扩充有限,因而需要定期监测表空间增长情况,防止系统出现数据库故障。此外,还需要定期备份并删除下发的文本形式的数据文件,目的也是尽可能的保障系统有足够的存储空间。

        最后,系统运行压力大,无法满足大数据环境下数据综合利用的要求。数据管理平台担负着几百张表的数据加载、入库、抽取任务,这些任务通常都在每日上午8:00-12:00进行,若在这个时间段查询数据,加上目前系统仅提供全表查询功能,将会导致等待时间加长,严重情况下可能出现死锁,既造成了数据入库等任务长时间处于等待分配或正在执行状态,无法正常完成,也造成了数据无法查询的情况,严重影响了数据的及时获取及数据的利用效率。

三、数据管理平台的数据分类模型

        1.数据管理平台的数据分类机制

        数据管理平台中的数据主要分为两类:非结构化数据和结构化数据。非结构化数据主要是以文本形式保存的各应用系统每日导出的数据文件,以及数据接收加载抽取处理过程中的日志文件;结构化数据主要是存储在DB2数据库中的数据,又分为永久类数据和历史类数据。其中,永久类数据是数据库中要永久保留的数据,没有生命周期,如一些参数信息等,而历史类数据有确定的保存期限。对于历史类数据,根据业务数据的重要程度和使用价值将其进一步细分为核心数据、重要数据以及一般数据三类。数据分类方式具体如表1所示。

大数据环境下数据中心的数据生命周期管理研究-表1.jpg

        数据管理平台中的非结构化数据,规定保存期限为三个月,到期定时删除过期数据。数据管理平台结构化数据中的历史类数据,按数据的使用价值划分为核心数据、重要数据以及一般数据,并对这三类数据分别定义在线、近线以及离线阶段的数据保存期限。数据管理平台作为数据集中存储平台,整合各应用系统数据,目的是为数据的综合利用提供基础数据来源,为数据的统计分析奠定基础,以此为出发点确定不同历史类数据在数据生命周期不同阶段的保存时间,如表2所示。

大数据环境下数据中心的数据生命周期管理研究-表2.jpg

        2.数据存储方案

        结构化数据中永久类数据需要永久保存,主要是机构、部门、人员等公有信息以及一些参数信息等,数据量变动较少,仍然采用目前的数据存储方式。而针对结构化数据中历史类数据的在线、近线及离线阶段,提出这三个阶段的数据存储方案。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章